Segmentación de artistas musicales representados en grafos bipartitos

Comparación de técnicas para estratificación

Juan José Primosich

UNTreF

Emilio Correa Dávola

UNTreF

2025-09-11

Contexto

Proyecto de investigación (UNTreF): Músicos y Fans en Plataformas Mediáticas: Un enfoque interdisciplinario

Objetivo: Analizar la forma en que los artistas musicales interactúan con sus audiencias a través de plataformas de redes sociales (p. e. Tiktok, Instagram, etc.) para comprender patrones de consumo y preferencias musicales en Argentina.


Problema: ¿Cómo seleccionar a los artistas musicales?

No existe un padrón o lista que los contenga a todos.

La unidad de análisis final no es el artista musical sino la relación [artista] - [red social] - [audiencia].

Desafío: Agrupar o segmentar artistas para seleccionarlos para muestreo estratificado en el proyecto de investigación para luego analizar sus interacciones con su audiencia en redes sociales.


Información disponible

  1. Selección experta inicial.
  2. Datos de la API Spotify o servicios similares

Resulta en datos estructurados y no estructurados.

Datos estructurados y no estructurados


¿Por qué Spotify?

  • Datos: Información sobre artistas, géneros y audiencias. Estructurados y no estructurados.
  • API accesible: Permite extracción de datos en tiempo real.
  • Popularidad: Mide el impacto y alcance de los artistas.

¿Por qué grafo bipartito artistas-géneros?

Grafo bipartito: Un grafo bipartito es aquel que puede colorearse con dos colores sin que ningún vértice tenga un vecino del mismo color, lo cual equivale a no tener ciclos impares.

Ventajas sobre clasificación directa:

  • Estructura relacional: Captura conexiones implícitas entre artistas vía géneros compartidos
  • Flexibilidad: Permite artistas multigénero sin forzar categorización única
  • Descubrimiento: Revela artistas “puente” entre géneros
  • Tolerancia: Maneja valores faltantes e inconsistencias en datos

AED

Layout Kamada-Kawai

El layout Kamada‑Kawai utiliza un modelo físico de resortes para posicionar nodos de modo que la distancia geométrica refleje las distancias gráficas entre ellos.
Es ideal para visualización, porque destaca estructuras y relaciones espaciales, pero no realiza análisis cuantitativo en sí mismo (no calcula métricas o clusters, sólo muestra).


Patrones identificados:

  • Centro: Artistas mainstream multigenéricos
  • Periferia: Nichos especializados
  • Puentes: Artistas que conectan clusters distantes

Recap


  • Objetivo: Segmentar artistas musicales para muestreo en proyecto de investigación.

  • Datos: Estructurados y no estructurados sobre artistas en plataforma on demand.

  • Estrategia: Representar artistas y géneros como grafo bipartito como estrategia para integrar información estructurada y no estructurada.

  • Grafo bipartito: forma de almancenar información tolerante a valores faltantes, inconsistencias pero flexible.

  • Layout Kamada-Kawai: útil para visualización exploratoria, revela patrones espaciales pero no realiza análisis.

Dataset

Características
  • Total artistas: 448
  • Total géneros: 73
  • Cobertura: Artistas mainstream y emergentes
API de Spotify
  1. Semilla: Selección experta inicial
  2. Expansión: Artistas relacionados por géneros vía API Spotify
  3. Filtrado: Audiencia argentina

Análisis

Spectral Clustering

  • Proyección del grafo sobre artistas
  • Ponderación por géneros compartidos
  • Laplaciano normalizado
  • Fortaleza: Artistas con perfil definido


  • La técnica transforma la matriz de afinidad factorizandola en un espacio reducido mediante eigenvectores del Laplaciano y luego aplica clustering en ese espacio, ideal para matrices sparse.

Node2Vec + K-means

  • Embedding del grafo bipartito (64D)
  • Paseos aleatorios sesgados (Node2Vec)
  • Clustering en espacio de representaciones (K-means)
  • Fortaleza: Artistas multigénero


  • Node2vec aprende vectores de nodos en grafos transformándolos en secuencias mediante recorridos aleatorios con sesgo, y luego aplica Skip‑Gram para capturar la estructura del grafo en un espacio vectorial n dimensional. Luego se aplica K-means para agrupar estos vectores.


Evaluación

Selección de k óptimo

  • Coeficiente de Silhouette
  • Rango explorado: 5-40 clusters
  • Criterio: Balance entre cohesión interna y separación externa

Validación

  • Comparación entre metodologías
  • Análisis de coincidencias

Resultados (1)

Spectral Clustering

Node2Vec + K-Means

Resultados (2)

Coincidencias entre métodos

  • Artistas analizados: 448
  • Spectral k óptimo: 16
  • Node2Vec k óptimo: 10
  • Concordancia: ARI: 0.748

Conclusiones


Limitaciones metodológicas:

  • Cobertura: Génerica limitada a presencia en Spotify
  • Temporalidad: fotografía, no evolución temporal


Mitigaciones aplicadas:

  • Documentación explícita de sesgos
  • Validación cruzada con expertos

Aspectos del método:

  • Escalabilidad: Adecuado para datasets más grandes
  • Transferibilidad: Aplicable a otros mercados musicales


Trabajo futuro:

  • Incorporación de datos temporales
  • Extensión a métricas de colaboración
  • Enriquecimiento con datos de otros servicios on demand
  • Validación en otros contextos geográficos


Preguntas y comentarios

Juan José Primosich
UNTreF
jprimosich@untref.edu.ar


Emilio Correa Dávola
UNTreF
correa42609@estudiantes.untref.edu.ar